Материалы по тегу: pci express 5.0
|
13.05.2024 [10:30], Сергей Карасёв
Экзабайты для ИИ: Huawei представила All-Flash СХД OceanStor A800Компания Huawei, по сообщению Datacenter Dynamics, представила СХД нового поколения OceanStor A800, специально разработанную для задач ИИ. Новинка позволяет формировать массивы экзабайтного уровня. Питер Чжоу (Peter Zhou), президент подразделения систем хранения Huawei, отмечает, что стремительное внедрение ИИ, в том числе генеративных сервисов, изменило требования к традиционным платформам СХД. Поэтому возникают проблемы с производительностью, надёжностью и масштабируемостью. В этой связи Huawei стремится переосмыслить подход к хранению информации, внедряя инновации по ряду направлений, включая новые парадигмы данных, повышение устойчивости и быстродействия. Платформа OceanStor A800 использует архитектуру SmartMatrix Pro для разделения уровней данных и управления: это позволяет передавать информацию через интерфейсные модули на/с SSD, обходя узкие места, связанные с CPU и памятью. В результате, как утверждается, производительность повышается практически на порядок по сравнению с традиционными хранилищами. В частности, A800 до восьми раз быстрее позволяет загружать наборы данных для обучения ИИ, а средняя утилизация GPU/NPU в кластере повышается почти на треть. Новая система выполнена в формате 8U. Конструкция включает два модуля обработки с поддержкой CPU и GPU, а также два модуля хранения на основе SSD. В качестве CPU применяется фирменное изделие Huawei Kunpeng с архитектурой Arm. Модули обработки могут дооснащаться дополнительными GPU, DPU и NPU. Основной шиной является PCIe 5.0. Показатель IOPS достигает 24 млн, а пропускная способность — 500 Гбайт/с. СХД поддерживает проприетарные накопители Palm SSD с высокоплотной упаковкой NAND-чипов и вместимостью 30 или 50 Тбайт, а в следующем году будет реализована возможность применения SSD на 128 Тбайт. Утверждается, что OceanStor A800 обеспечивает плотность хранения более 1 Пбайт на 1U, а энергоэффективность составляет 0,7 Вт/Тбайт. Платформа может масштабироваться до 512 контроллеров и 4096 вычислительных блоков, что обеспечивает вместимость в экзабайты и возможность обслуживания моделей с триллионами параметров. Применена параллельная файловая система OceanFS, причём Huawei предлагает унифицированное управление данными сразу в нескольких кластерах посредством Omni-Dataverse. Поддерживаются протоколы NFS, SMB, HDFS, S3, POSIX, MP-IO, а также интерфейсы для работы с векторными/тензорными данными. Предусмотрены встроенные средства обнаружения программ-вымогателей, эффективность которых, по заявлениям Huawei, достигает 99,99 %.
01.05.2024 [17:00], Сергей Карасёв
Внутри и снаружи: PCI-SIG обнародовала спецификации кабелей CopprLink для PCIe 5.0/6.0Организация PCI Special Interest Group (PCI-SIG) обнародовала спецификации электрических кабелей и разъёмов CopprLink для внешних и внутренних подключений PCIe 5.0/6.0. Новые соединения на основе меди позволят заменить существующие кабели OCuLink в тех случаях, когда требуется более высокая пропускная способность. Стандарт CopprLink был анонсирован в конце 2023 года. Кабели данного типа обеспечат высокоскоростные подключения в пределах отдельных систем, а также между различными узлами в составе стойки. Кроме того, как отмечалось ранее, разрабатываются варианты для межстоечного соединения. Спецификация CopprLink для внутренних подключений:
Спецификация CopprLink для внешних подключений:
Отмечается, что в дальнейшем кабели CopprLink будут развиваться с учётом возможностей интерфейса PCIe следующих поколений. Технология CopprLink, как ожидается, будет востребована в сферах, где необходимы небольшие задержки, включая дата-центры, производительные СХД, сети и пр. В будущем ожидается появление оптических кабелей PCIe.
08.04.2024 [09:48], Сергей Карасёв
CXL из коробки: Samsung представила стоечный массив памяти CMM-BКомпания Samsung анонсировала решение под названием CXL Memory Module — Box (CMM-B): это массив модулей памяти CXL, предназначенный для монтажа в стойку. Новинка совместима с решениями Supermicro Plug and Play. В состав CMM-B входят восемь пулов CXL-памяти на базе модулей E3.S CMM-D (PCIe 5.0) ёмкостью 2 Тбайт каждый. Таким образом, суммарный объём достигает 16 Тбайт. В составе стойки доступ к этому массиву могут получать три сервера Supermicro. Такая архитектура позволяет выделять необходимый объём памяти в соответствии с текущими нагрузками, устраняя узкие места в вычислительных системах. Через консоль SCMC (Samsung Cognos Management Console) можно отслеживать распределение памяти.
Источник изображений: Samsung Устройство CMM-B выполнено в формате 4U. Заявлена совместимость со стандартами CXL 1.1/2.0. Пропускная способность достигает 60 Гбайт/с, тогда как задержка находится на уровне 596 нс. С точки зрения «чистой» производительности один модуль CMM-B работает медленнее, чем двухканальная подсистема оперативной памяти DDR5-4800. Тем не менее, устройство значительно быстрее, чем даже наиболее передовые SSD. ![]() Представленная стоечная система разработана в тесном сотрудничестве с Supermicro. В состав решения, помимо CMM-B и трёх серверов, входит PCIe-коммутатор. Система предназначена для приложений, которым требуется большой объём памяти, таких как ИИ, анализ массивов информации и in-memory базы данных. CMM-B позволяет динамически выделять необходимую память системе, когда она необходима ей. Благодаря этому повышается гибкость использования инфраструктуры и снижаются энергетические затраты, говорят создатели.
29.03.2024 [13:39], Сергей Карасёв
GigaIO представила оптические кабели PCIe 5.0 для развёртывания масштабных ИИ-кластеровКомпания GigaIO, разрабатывающая систему распределённого интерконнекта на базе PCI Express под названием FabreX, представила первые в отрасли оптические кабели QSFP-DD с поддержкой PCIe 5.0. Отмечается, что оптические кабели обеспечивают ряд преимуществ перед традиционными медными соединениями. Это, в частности, повышенная пропускная способность. Кроме того, длина оптических линий может превышать 3 м, что является ограничением для медных кабелей. Представленные кабели используют конфигурацию PCIe 5.0 x8 с возможностью агрегации 16 линий. Благодаря этим изделиям упрощается развёртывание высокопроизводительных систем GigaIO SuperNODE, которые позволяют связать воедино до 32 ускорителей посредством упомянутой платформы FabreX. Отмечается, что оптические кабели способны обеспечить передачу данных с высокой скоростью на десятки метров. Таким образом, несколько систем SuperNODE или SuperDuperNODE могут быть объединены в единый кластер для решения наиболее ресурсоёмких задач ИИ. Медные соединения обычно ограничивают размер кластеров двумя–тремя стойками. В случае оптических кабелей предоставляется гораздо большая гибкость в плане конфигурации оборудования. В результате системы SuperNODE могут быть развёрнуты даже в тех дата-центрах, в которых существуют жёсткие ограничения по мощности и охлаждению в расчёте на стойку. Оптические кабели QSFP-DD с поддержкой PCIe 5.0 станут доступны предстоящим летом.
24.03.2024 [02:19], Сергей Карасёв
WEKApod для SuperPOD: WekaIO представила платформу хранения данных для ИИ-кластеров NVIDIAКомпания WekaIO, разработчик решений для хранения данных, анонсировала высокопроизводительное All-Flash хранилище WEKApod, оптимизированное для работы с платформой NVIDIA DGX SuperPOD на базе NVIDIA DGX H100. Новинка объединяет специализированное ПО WekaIO и «лучшее в своем классе оборудование». Хранилище WEKApod спроектировано для ресурсоёмких нагрузок ИИ. Базовая конфигурация состоит из восьми 1U-узлов, обеспечивающих суммарную вместимость в 1 Пбайт. Показатель IOPS (операций ввода-вывода в секунду) достигает 18,3 млн. Заявленная пропускная способность при чтении составляет до 720 Гбайт/с, при записи — до 186 Гбайт/с. Утверждается, что восемь узлов WEKApod обеспечивает производительность, необходимую для 128 систем NVIDIA DGX H100. При этом WEKApod может масштабироваться до сотен узлов блоками по четыре узла. Таким образом, можно сформировать систему необходимой вместимости с высокой отказоустойчивостью для обучения больших языковых моделей (LLM), ИИ-приложений, работающих в реальном времени, и пр.
Источник изображения: WekaIO Отмечается, что архитектура WEKApod обеспечивает снижение энергопотребления благодаря оптимальному использованию пространства, улучшенному охлаждению и средствам энергосбережения в режиме простоя. В результате, достигается потенциальное сокращение углеродного следа до 260 т/Пбайт. WEKApod использует адаптеры NVIDIA ConnectX-7 и NVIDIA Base Command Manager для мониторинга и управления. Каждый из узлов несёт на борту процессор AMD EPYC 9454P (48C/96T; 2,75–3,80 ГГц; 290 Вт) и 384 Гбайт памяти DDR5-4800. Есть посадочные места для 14 накопителей формата E3.S с интерфейсом PCIe 5.0. Производительность в расчёте на узел достигает 90 Гбайт/с при чтении и 23,3 Гбайт/с при записи, а величина IOPS равна 2,3 млн при произвольном чтении и 535 тыс. при произвольной записи.
14.03.2024 [10:03], Сергей Карасёв
ScaleFlux представила платформу SFX 5016 для вычислительных SSD нового поколенияКомпания ScaleFlux анонсировала контроллер SFX 5016, предназначенный для создания вычислительных SSD следующего поколения. Такие устройства могут частично взять на себя нагрузку по обработке хранимых данных и тем самым высвободить ресурсы CPU для других задач. Представленное изделие соответствует спецификации NVMe 2.0 и стандарту OCP Datacenter SSD Spec 2.0. Поддерживается интерфейс PCIe 5.0. Возможно использование до 128 Гбайт памяти LPDDR5, а максимально поддерживаемая вместимость накопителей достигает 256 Тбайт (со сжатием; физически — 64 Тбайт). Контроллер обеспечивает скорость передачи информации до 14 Гбайт/с блоками по 128 Кбайт при последовательном чтении и до 11 Гбайт/с такими же блоками при последовательной записи. Заявленный показатель IOPS (операций ввода/вывода в секунду) достигает 3 200 000 при произвольном чтении данных блоками по 4 Кбайт и 1 500 000 при установившейся произвольной записи. Для контроллера SFX 5016 заявлена поддержка шифрования по алгоритму AES-256. Чип может применяться в составе накопителей с флеш-памятью NAND различных производителей, включая изделия TLC и QLC. Говорится о поддержке TCG Opal в соответствии со стандартом FIPS 140-3. Энергопотребление в активном режиме заявлено на уровне 6 Вт, в режиме простоя — менее 2 Вт. При производстве применяется 7-нм технология. ScaleFlux предлагает вычислительные накопители серий CSD 2000 и CSD 3000 на контроллерах предыдущего поколения. Так, устройства CSD 3000 используют чип SFX 3016. Контроллер SFX 5016, в свою очередь, ляжет в основу SSD серии CSD 5000.
29.09.2023 [13:15], Сергей Карасёв
InnoGrit начала массовый выпуск первого китайского контроллера PCIe 5.0 для серверных SSDКитайская компания Yingren Technology (InnoGrit), по сообщению ресурса Tom's Hardware, организовала массовое производство первого в стране контроллера PCIe 5.0, предназначенного для создания SSD корпоративного класса. Изделие получило обозначение YR S900. Новинка представляет собой четырехканальный контроллер SSD, основанный на архитектуре RISC-V. Выбор RISC-V объясняется в том числе напряжёнными отношениями между США и КНР: в данном случае на изделие не смогут распространяться экспортные ограничения. О типе применённой технологии производства ничего не сообщается. Известно, что контроллер обеспечивает полную поддержку протокола NVMe 2.0. Заявленная скорость последовательного чтения достигает 14 Гбайт/с, последовательной записи — 12 Гбайт/с. Показатель IOPS при произвольных чтении и записи составляет до 3,5 и 2,5 млн соответственно. Контроллер может применяться в 16- и 18-канальной конфигурации.
Источник изображения: Yingren Technology YR S900 наделён процессором ECC третьего поколения для оптимизации кодирования и декодирования 4K LDPC. По заявлению компании, использование решения вместе с новой гибридной адаптивной функцией коррекции ошибок ECC позволяет поднять производительность памяти TLC и QLC NAND. А при работе с Kioxia XL-Flash показана задержка произвольного чтения 4K на уровне 10 мкс. Среди прочего упомянута поддержка FDP (Flexible Data Placement), SR-IOV, CMB (Controller Memory Buffer), а также различных алгоритмов шифрования.
10.08.2023 [00:10], Алексей Степин
XConn Technologies представила гибридный коммутатор CXL 2.0/PCIe 5.0XConn Technologies представила первый, по её словам, в индустрии гибридный чип-коммутатор CXL 2.0/PCIe 5.0 XC50256, получивший кодовое название Apollo. Утверждается, что он обеспечивает самую низкую латентность port-to-port, а также самое низкое энергопотребление в отрасли. Коммутатор способен работать с 256 линиями интерфейса и разработан с учётом потребностей, характерных для мира ИИ и машинного обучения, а также HPC-сегмента. Чип Apollo совместим с существующей инфраструктурой CXL 1.1, но поддерживает и режим 2.0, включая актуальные режимы CXL.mem или CXL.cache.
Источник изображений здесь и далее: XConn Technologies Но наиболее интересной особенностью Apollo является возможность работы нового коммутатора в гибридном режиме — он способен одновременно обслуживать CXL и PCI Express, что в ряде случаев позволит избежать использования дополнительных коммутаторов под каждый стандарт, а значит, и снизить стоимость и сложность разработки конечной системы.
Новый коммутатор поддерживает подключение нескольких хостов к единому CXL-пулу памяти Также компания анонсировала другой коммутатор, XC51256. Он также работает с 256 линиями, но поддерживает только PCI Express 5.0. Тем не менее, это самый высокоплотный PCIe-коммутатор на сегодня, поскольку большинство решений конкурентов обеспечивает в лучшем случае вдвое меньше линий PCI Express, утверждает XConn. ТXC51256 идеален для построения систем класса JBOA (Just-a-Bunch-Of-Accelerators). В настоящее время образцы Apollo XC50256 и XC51256 уже доступны для заказчиков.
24.03.2023 [20:28], Алексей Степин
Kioxia анонсировала серверные SSD на базе XL-FLASH второго поколенияПо мере внедрения новых версий PCI Express растут и линейные скорости SSD. Не столь давно 3-4 Гбайт/с было рекордно высоким показателем, но разработчики уже штурмуют вершины за пределами 10 Гбайт/с. Компания Kioxia, крупный производитель флеш-памяти и устройств на её основе, объявила на конференции 2023 China Flash Market о новом поколении серверных накопителей, способных читать данные со скоростью 13,5 Гбайт/с. Новые высокоскоростные SSD будут построены на базе технологии XL-FLASH второго поколения. Первое поколение этих чипов компания (тогда Toshiba) представила ещё в 2019 году. В основе лежат наработки по BiCS 3D в однобитовом варианте, что позволяет устройствам на базе этой памяти занимать нишу Storage Class Memory (SCM) и служить заменой ушедшей с рынка технологии Intel Optane. Как уже сообщалось ранее, XL-FLASH второго поколения использует двухбитовый режим MLC, но в любом случае новые SSD Kioxia в полной мере раскроют потенциал PCI Express 5.0. Они не только смогут читать данные на скорости 13,5 Гбайт/с и записывать их на скорости 9,7 Гбайт/с, но и обеспечат высокую производительность на случайных операциях: до 3 млн IOPS при чтении и 1,06 млн IOPS при записи. Время отклика для операций чтения заявлено на уровне 27 мкс, против 29 мкс у XL-FLASH первого поколения. Kioxia полагает, что PCI Express 5.0 и CXL 1.x станут стандартами для серверных флеш-платформ класса SCM надолго — господство этих интерфейсов продлится минимум до конца 2025 года, лишь в 2026 году следует ожидать появления первых решений с поддержкой PCI Express 6.0. Активный переход на более новую версию CXL ожидается в течение 2025 года. Пока неизвестно, как планирует ответить на активность Kioxia другой крупный производитель флеш-памяти, Samsung Electronics, которая также располагает высокопроизводительной разновидностью NAND под названием Z-NAND.
09.08.2022 [18:09], Игорь Осколков
Китайская компания Biren представила ИИ-ускоритель BR100, который обгоняет по производительности NVIDIA A100Шанхайская компания Biren Technology, основанная в 2019 году и уже получившая более $280 млн инвестиций, официально представила серию ускорителей BR100, которые способные потягаться с актуальными решениями от западных IT-гигантов. Утверждается, что это первое изделие подобного класса, созданное в Поднебесной. Компания уже подписала соглашение о сотрудничестве с ведущим производителем серверов Inspur. Новинка содержит 77 млрд транзисторов, использует чиплетную компоновку, изготавливается по 7-нм техпроцессу на TSMC и имеет 2.5D-упаковку CoWoS. Для сравнения — грядущие NVIDIA H100 имеют такую же упаковку, но включают 80 млрд транзисторов и изготавливаются по более современному техпроцессу TSMC N4. При этом BR100 примерно вдвое производительнее 7-нм NVIDIA A100 и примерно вдвое же медленнее H100. Впрочем, Biren приводит только данные о вычислениях пониженной точности, да и в целом говорит о том, что новинка предназначена в первую очередь для ИИ-нагрузок. В серию входят два решения: BR100 и BR104. Оба варианта оснащаются интерфейсом PCIe 5.0 x16 с поддержкой CXL. Первый вариант имеет OAM-исполнение с TDP на уровне 550 Вт. Он позволяет объединить до восьми ускорителей на UBB-плате, связав их между собой фирменным интерконнектом BLink (512 Гбайт/с) по схеме каждый-с-каждым. BR100 полагается 300 Мбайт кеш-памяти и 64 Гбайт HBM2e (4096 бит, 1,64 Тбайт/c). Также он способен одновременно кодировать до 64 потоков FullHD@30 HEVC/H.264, а декодировать — до 512. Кроме того, доступно создание до 8 аппаратно изолированных инстансов Secure Virtual Instance (SVI) по аналогии с NVIDIA MIG. Заявленная производительность составляет 256 Тфлопс для FP32-вычислений, 512 Тфлопс для TF32+ (по-видимому, подразумевается некая совместимость с фирменным форматом NVIDIA TF32), 1024 Тфлопс для BF16 и, наконец, 2048 Топс для INT8.
BR104 BR104 представляет более традиционную FHFL-карту с TDP на уровне 300 Вт. По производительности она ровно вдвое медленнее старшей версии BR100, способна обрабатывать вдвое меньшее количество видеопотоков и предлагает только до 4 SVI-инстансов. BR104 имеет 150 Мбайт кеш-памяти, 32 Гбайт HBM2e (2048 бит, 819 Гбайт/c) и три 192-Гбайт/с интерфейса BLink. Для работы с ускорителями компания предлагает собственную программную платформу BIRENSUPA, совместимую с популярными фреймворками PyTorch, TensorFlow и PaddlePaddle. |
|

